Policy Gradient - AGI

Policy Gradient

entropy制約項付きのpolicy gradientとQ学習は類似しており，ある仮定のもとでは等価．